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摘要 : [目的 /意义 ] 本 文 期 望 通过 采用 数据 挖 气 、 语 义 识别 、 知 识 关 系 计算 等 技术 方法 来 提 
升 科技 文献 检索 系统 的 服务 功能 和 效果 ， 使 之 能 够 呈现 更 加 丰富 的 知识 化 语义 信息 ， 将 更 
多 的 知识 点 和 知识 关系 展现 给 用 户 。 [方法 /过 程 ] 本 文 应 用 semrap 和 clauslE 数据 挖掘 和 关 
系 计 算 工 具 ， 识 别 和 抽取 科技 文献 中 的 语义 对 象 ， 分 析 、 计 算 、 构 建 语 义 关 系 ， 并 将 得 到 
的 语义 对 象 和 语义 关系 设计 建立 多 维 语义 索引 树 ， 设 计 了 新 的 数据 组 织 呈 现 模型 。[ 结 果 / 
结论 ] 研发 语义 丰富 化 检索 示范 系统 ， 在 科技 文献 检索 系统 中 充分 揭示 语义 信息 ， 给 用 户 
带 来 更 多 的 知识 内 容 层 面 的 导航 、 关 联 、 发 掘 和 揭示 ， 同 时 分 析 了 设计 模型 的 优势 与 不 足 。 
关键 词 : 语义 丰富 化 ”语义 知识 组 织 ”多维 索引 语义 关系 呈现 
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Abstract: [Objective] This paper aims to enhance the Scientific literature retrieval system, which 
can present more abundant Semantic information, and will show more knowledge and knowledge 
relations to users based on data mining, Semantic recognition, knowledge organization technology. 
[Methods/Process] This paper recognizes knowledge objects in the scientific literature, calculates 
and extracts semantic relations among the objects using the semrap and clausIE tools. It builds 
semantic multidimensional index on the semantic objects and Semantic relations, presents a new 
data organization model design. [Results/Conclusions] This semantic enrichment retrieval 
demonstration system built in this paper can fully reveals the semantic information; can brings 
more knowledge level navigation, association, excavation and disclosure to users. 
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Relation Presentation 


引言 

随 着 数据 挖掘 、 语 义 识 别 、 知 识 关 系 计 算 技 术 的 不 断 发 展 和 在 科技 文献 中 
的 应 用 ， 人 们 更 希望 在 科技 文献 的 检索 系统 中 ， 能 够 呈现 更 加 丰富 的 语义 化 内 
容 ， 将 更 多 的 知识 点 和 知识 关系 展现 给 用 户 。 语 义 丰富 化 框架 的 设计 目标 是 将 
多 种 类 型 的 语义 知识 对 象 ， 语 义 对 象 之 间 丰 富 的 关联 关系 等 知识 化 信息 在 科技 
文献 检索 系统 揭示 出 来 ， 在 数据 挖掘 、 语 义 识 别 技术 的 基础 上 ， 改 变现 有 单一 
关键 词 导 癌 的 检索 系统 ， 重 新 组 织 语义 丰富 化 的 数据 ， 以 呈现 语义 知识 与 语义 


关联 信息 。 

本 文 在 语义 丰富 化 框架 设计 试验 的 过 程 中 ， 选 择 来 自 于 PubMeda 的 医学 领 
域 的 Migraine Disorder、Heart Diseases 这 2 个 主题 近 2 年 内 的 文章 集合 作为 示 
范 系统 的 试验 数据 集 ， 采 用 数据 挖掘 计算 较为 成 熟 的 semrap 和 clauslE 作为 基 
础 数据 挖掘 分 析 工 具 ， 并 设计 多 维 语义 数据 组 织 索引 模型 ， 研 发 了 检索 示范 系 
统 以 探索 科技 文献 检索 的 语义 丰富 化 。 


1 语义 丰富 化 总 体 框架 设计 


图 1 语义 丰富 化 总 体 设计 框架 图 


如 图 一 所 示 ， 科 技 文献 检索 系统 语义 丰富 化 主要 工作 分 为 两 个 部 分 

Ee (1) 语义 标 引 ， 主要 对 文献 中 出 现 的 知识 对 象 做 深度 标 引 。 首 先 标 引 出 文 

和 献 的 关键 词 ， 并 识别 出 知识 对 象 所 属 的 类 型 〈 即 它 是 什么 ) ;其 次 计算 出 来 各 
个 知识 对 象 之 间 的 关联 关系 。 语 义 标 引 主要 工作 包括 : 文献 线索 的 标 引 、 内 容 
语义 标 引 、 语 义 关系 抽取 、 句 法 关系 抽取 。 


> 


> 


文献 线索 的 标 引 : 不 仅 包括 文献 元 数据 标 引 ， 如 作者 、 出 版 社 、 出 版 年 
等 描述 数据 。 还 需要 根据 文献 提供 的 摘要 文本 数据 ， 将 文献 线索 切 分 为 
有 独立 内 容 含义 的 句子 和 段落 ， 如 计算 切 分 文献 中 研究 目的 、 研 究 方法 、 
研究 工具 、 研 究 结果 等 。 

内 容 语 义 标 引 : 实现 学 术 论 文中 的 问题 、 理 论 、 方 法 、 技 术 手 段 、 工 具 、 
模型 、 结 论 等 内 容 的 标 引 。 

语义 关系 抽取 : 根据 在 同一 个 句子 中 计算 标 引 得 到 的 知识 对 象 ， 根 据 
UMLS 和 STKOS 知识 组 织 体 系 中 ， 查 询 每 两 个 知识 对 象 可 能 存在 的 语义 关 
系 ”， 并 将 发 现 的 这 些 语义 关系 记录 为 SP0 三 元 组 ”。 

句法 关系 抽取 : 根据 句法 关系 计算， 将 长 句 拆 分 成 短 句 和 子 句 ， 并 在 
这 些 子 句 中 识别 出 来 主 谓 宾 关 系 ， 将 主 谓 宾 关 系 以 SP0 三 元 组 的 方式 记 
录 。 一 个 句子 可 能 拆 分 为 多 个 SP0 三 元 组 。 


(2) 语义 索引 ， 将 标 引 抽取 后 得 到 的 内 容 ， 根 据 不 同 维度 的 数据 ， 构 建 多 
维度 的 语义 索引 体系 ， 将 语义 知识 有 机 组 织 起 来 ， 便 于 语义 检索 平台 使 用 。 


文献 索引 : 文献 索引 层 是 对 文章 的 标题 、 作 者 、 发 表 时 间 等 元 数据 描述 
进行 索引 ;句子 和 段落 层 索 引 是 将 文摘 切 分 成 段落 和 句子 后 ， 对 句子 和 
段落 索引 。 
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> 知识 对 象 索引 : 从 文本 中 识别 标 引 得 到 的 术语 和 实体 ， 本 文中 统一 称 为 
知识 对 象 ”。 根 据 语 义 丰 富 化 示范 系统 的 设计 要 求 ， 知 识 对 象 索引 包括 
知识 对 象 索引 和 知识 对 象 属性 索引 两 个 部 分 。 知 识 对 象 索引 用 于 将 用 户 
输入 关键 词 识别 为 语义 对 象 ， 实 现 对 输入 关键 词 规范 作用 。 知 识 对 象 属 
性 索引 用 于 对 知识 对 象 的 各 项 属性 进行 检索 查询 和 分 类 展示 。 

> 知识 对 象 关系 索引 : 语义 标 引 工作 计算 得 到 语义 关系 和 句法 关系 ， 文 本 
将 这 两 种 关系 合并 后 统称 为 知识 对 象 关 系 。 它 们 均 以 SP0 三 元 组 的 方式 
表达 ， 并 构建 三 元 组 索引 ， 从 而 实现 对 知识 对 象 语义 关系 的 检索 查询 和 
关联 关系 揭示 。 


2 语义 标 引 的 功能 设计 与 实现 


2 语义 标 引 流程 图 


对 选取 文献 数据 的 标题 和 摘要 进行 语义 标 引 ， 参 照 UMLS、STKOS 将 医学 领 
域 语义 对 象 划 分 15 个 大 类 、134 个 小 类 为 使 用 Semrap 和 MetaMap 工具 对 文献 
中 的 重要 语义 对 象 进行 标 引 抽取 。 使 用 MetaMap 和 ClauselE 实现 对 语义 关系 的 
计算 识别 。 工 作 流 程 如 图 2 所 示 ， 左 边 流程 代表 文本 内 容 通过 Semrap 语义 对 象 
标 引 ， 标 引得 到 实验 数据 参照 选取 的 15 个 大 类 、134 个 小 类 进行 规范 映射 等 实 
验 数据 修正 。 标 引 工作 内 容 包括 : 

(1) 实现 深入 文献 内 容 的 重要 对 象 标 引 ， 基 于 海量 科技 文献 〈20 万 条 ) 、 
STKOS 的 本 体 和 超级 词 表 (UMLS) ， 通 过 Semrap 和 MetaMap 工具 实现 15 个 大 
类 、134 个 小 类 的 重要 内 容 和 重要 对 象 的 标 引 抽取 。 

(2) 实现 知识 对 象 标 引 ， 标 引 规范 后 知识 对 象 4935 条 〈 未 规范 对 象 20 万 


条 ) 


2.2 数据 语义 化 组 织 与 规范 


如 图 2， 右边 流程 代表 对 对 象 关 系 的 计算 、 组 织 和 规范 ，MetaMap 工具 实现 

对 规范 语义 关系 的 计算 识别 ， 将 语义 对 象 关 系 识 别 为 30 个 规范 关系 。ClauselE 
工具 实现 对 句法 树 关 系 的 识别 。 将 MetaMap 和 ClauselE 两 种 工具 识别 的 语义 关 
系数 据 合并 整合 ， 参 照 MetaMap 选取 的 30 个 规范 关系 对 实验 数据 规范 修正 。 
完成 的 数据 组 织 、 规 范 工作 包括 : 

(1) 实现 文献 内 部 知识 对 象 的 语义 关系 标 引 ， 通 过 Semrap 和 MetaMap 工 
有 具 实 现 科 技 文献 中 30 种 语义 关系 、 段 落 关 系 的 抽取 ， 控 掘 知识 对 象 之 间 洪 在 的 
语义 关系 。 

(2) 实现 文献 内 容 的 句法 关系 标 引 ， 通 过 ClauselE 工具 实现 科技 文献 中 名 
法 关系 〈SPO) 抽取 ， 发 现 知 识 对 象 〈 关 键 词 、 术 语 ) 之 间 潜 在 关联 关系 。 

(3) 整合 语义 关系 和 句法 关系 标 引 ， 通 过 试验 1116 篇 文献 摘要 中 提取 的 
SPO 关系 50204 条 ， 其 中 语义 关系 41590， 语 法 关系 8614 条 。 
2.3 关键 问题 解决 方案 


(1) 标 引 内 容 与 Mesh 词 表 映 射 
Semrep 处 理 后 的 结果 如 下 : 


SE|00000000| |tx|llentity|C0006142|Malignant neoplasm of breast|neop|Breast cancer|1000|1|13 
含义 如 下 : 


Semrep 工具 标记 
示 识 


\ 语 类 型 


Mesh 词 表 中 术语 代码 
Malignant neoplasm of Mesh 种 的 标准 术语 


breast 


语 
文本 中 出 现 的 记 
1000 


表 1 Semrep 语义 标 引 字段 描述 表 

红色 字段 〈 例 子 中 的 neop) 为 134 种 小 类 的 语义 关系 缩写 ， 目 前 本 文 已 经 
收集 了 Mesh 词 表 对 应 的 134 种 小 类 15 个 大 类 的 英文 全 称 、 英 文 缩写 及 中 文 名 
称 。 通 过 红色 字段 进行 关联 ， 建 立 起 文本 识别 术语 与 Mesh 词 表 映射 关系 。 从 
而 解决 了 Semrep 处 理 后 的 结果 与 15 大 类 和 134 种 小 类 对 应 关系 问题 。 


(2) ClausIE 抽取 出 的 主语 (S) 、 谓 词 (P) 与 UMLS 超级 词 表 的 对 应 

ClauslE 是 按照 句法 关系 来 抽取 三 元 组 ， 所 以 和 Semrep 种 抽取 的 实体 不 能 完 
全 匹配 ， 同 时 Semrep 只 能 抽取 语义 动词 ， 其 他 动词 都 被 忽略 掉 。 对 于 前 一 种 情 
况 考虑 能 否 通过 模糊 匹配 的 方式 保证 实体 的 对 应 ， 对 于 第 二 种 情况 ， 考 虑 从 
MetaMap 中 提取 出 动词 ， 然 后 进行 匹配 。 保 障 试验 数据 的 规范 性 和 一 致 性 。 


3 语义 索引 的 功能 设计 与 实现 


图 3 语义 索引 架构 设计 图 
3.1 语义 索引 的 基本 功能 


语义 索引 设计 目标 是 揭示 语义 对 象 和 对 象 间 多 种 语义 关系 ， 改 变 了 当前 单 
一 维度 索引 的 方式 ， 使 用 多 颗 索 引 树 整合 协同 工作 ， 从 多 维度 呈现 语义 内 容 。 
如 图 3 所 示 ， 语 义 索 引 以 知识 对 象 为 核心 ， 遵 循 用 户 使 用 流程 ， 从 检索 关键 词 
出 发 ， 通 过 知识 对 象 索引 对 输入 关键 词 进行 语义 识别 和 语义 消 歧 ， 然 后 通过 知 
识 对 象 关系 索引 ， 遍 历 知 识 网 络 ， 导 航 、 筛 选 所 需 关 联 知识 ;通过 桥接 索引 确 
定 知识 对 象 所 在 的 句子 、 段 落 ， 最 后 通过 文献 索引 查询 、 展 示 包 含 相 关 知 识 内 
容 的 文献 信息 。 基 于 上 述 4 个 步 又， 将 索引 分 为 4 个 功能 部 分 : 
(1) 知识 对 象 索引 
@ 知识 对 象 索引 :索引 知识 对 象 的 人 全称、 简称、 别名 等 ， 将 用 户 检索 输入 
的 关键 词 转换 为 相关 知识 对 象 ， 实 现 语 义 检索 转变 。 
@ ”知识 对 象 属性 索引 : 检索 并 展示 知识 对 象 的 各 项 属性 ， 发 现 语义 冲突 的 
关键 词 ， 实 现 语义 消 歧 功 能 。 
(2) 语义 关系 索引 
@ ”知识 对 象 语义 关系 索引 : 索引 文本 中 出 现 的 知识 对 象 间 的 语义 关系 〈 语 
义 关系 是 UMSL 或 STKOS 规范 后 的 关联 关系 ) ， 实 现 语 义 关 系 的 检索 和 
分 析 展 示 功 能 。 
@ ”知识 对 象 语法 关系 索引 : 索引 文本 中 出 现 的 知识 对 象 间 的 语法 关系 〈 语 
法 关系 是 NLP 句法 分 析 得 到 未 规范 关联 关系 ) ， 用 于 区 别 语义 和 语法 关 
系 的 检索 和 分 析 展示 。 
(3) 桥接 索引 
@ 对象- 文献 关系 索引 : 实现 知识 对 象 和 存在 文献 位 置 的 映射 ， 并 同时 用 
于 分 析 和 揭示 语义 知识 对 象 的 共 现 关系 。 


@ 对象- 段落 关系 索引 : 实现 知识 对 象 和 存在 段落 位 置 的 映射 ， 并 同时 用 
于 分 析 和 揭示 语义 知识 对 象 的 共 段 关系 。 
@ 对象- 句子 关系 索引 : 实现 知识 对 象 和 存在 句子 位 置 的 映射 ， 并 同时 用 
于 分 析 和 揭示 语义 知识 对 象 的 共 句 关系 。 
(4) 文献 索引 
@ 元 数据 索引 : 索引 文献 的 元 数据 描述 信息 ， 包 括 标题 、 作 者 、 出 版 年 等 
元 数据 ， 用 于 文献 基础 信息 的 展示 。 
@ 文献 内 容 索 引 ; 对 文章 摘要 (或 全 文 ) 的 内 容 索 引 ， 用 于 文献 内 容 展示 
和 相关 知识 对 象 和 知识 关系 的 高 亮 显示 等 功能 。 
本 文 试 验 共 实现 索引 文献 1116 篇 ， 段 落 4023 个 ， 句 子 7684 个， 索引 规范 
知识 对 象 4935 条 。 索 引 知 识 关 系 50204 条 。 


3.2 关键 问题 及 解决 方案 


(1) 输入 的 关键 词 与 规范 知识 对 象 的 映射 

试验 中 可 能 出 现 输入 关键 词语 与 索引 知识 对 象 不 能 完全 匹配 问题 ， 无 法 映 
射 到 准确 的 规范 知识 对 象 ， 输 入 的 一 个 关键 词 可 能 包含 多 种 含义 ， 发 生 语 义 识 
别 歧 义 ， 无 法 明确 映射 到 具体 知识 对 象 。 

对 第 一 问题 ， 本 文采 用 索引 模糊 匹配 方法 ， 选 取 匹 配 分 值 最 高 的 知识 对 象 ， 
并 列 出 匹配 的 前 5 条 列表 通知 用 户 ， 以 便 用 户 再 次 修正 实现 语义 识别 。 第 二 个 
问题 ， 则 将 给 用 户 列 出 不 同 含义 的 知识 对 象 ， 由 用 户 选 择 实现 语义 消 歧 。 后 期 
工作 可 以 考虑 使 用 用 户 行为 上 下 文 进行 智能 语义 消 歧 。 

(2) 知识 对 象 关联 关系 统计 揭示 

知识 对 象 关系 都 以 三 元 组 5-P-0 的 方式 在 Apache Solr 建立 索引 ， 为 了 方便 
分 析 数 据 关 系 ， 三 元 组 索引 中 加 入 元 余 字 段 ， 即 索引 采用 对 主语 〈S$) 建立 索引 
对 PO) 分 面 ， 对 宾语 (0) 建立 索引 对 〈SP) 分 面 的 方法 。 利 用 Solr 的 分 面 
和 频次 统计 功能 ， 在 检索 知识 对 象 时 对 (PO) 和 (SP) 分 面 ， 即 可 统计 揭示 检 
索 结 果 中 出 现 频次 最 高 的 语法 和 语义 关系 ， 从 而 帮助 用 户 发 现 潜在 知识 关联 。 


4 语义 丰富 化 试验 系统 的 数据 组 织 


图 4 语义 丰富 化 检索 的 数据 组 织 结构 图 


为 实现 语义 丰富 化 检索 示范 平台 ， 系 统 将 数据 组 织 为 4 个 维度 ， 如 图 4 所 示 ， 


第 一 维度 是 文摘 层 ， 对 文章 的 标题 、 作 者 、 发 表 时 间 等 元 数据 表达 揭示 ; 第 二 
维度 是 句子 和 上 段落 层 ， 将 文章 切 分 成 段落 和 句子， 对 句子 和 上 段落 表达 揭示 ; 第 
三 维度 是 事实 层 ， 即 对 句子 的 语义 化 切 分 。 用 于 知识 对 象 计 算得 到 语法 关系 和 
句法 关系 表达 揭示 ; 第 四 维度 是 知识 对 象 层 ， 对 文本 中 识别 出 来 的 知识 对 象 
《术语 和 实体 ) ， 以 及 知识 对 象 属性 表达 揭示 。 

从 下 而 上 的 视角 看 ， 第 三 、 四 维度 将 科技 文献 拆 分 为 知识 对 象 和 知识 对 象 
的 关联 ， 从 而 形成 了 科技 知识 网 络 ， 用 于 语义 化 的 查询 与 关联 导航 。 第 一 、 二 
维度 结合 文献 的 段落 和 句子， 用 于 定位 知识 存在 于 科技 文献 的 具体 位 置 ， 便 于 
用 户 详细 关联 阅读 。 


5 语义 丰富 化 示范 平台 


语义 丰富 化 示范 平台 围绕 用 户 的 知识 化 应 用 需求 进行 设计 ， 用 户 检索 流程 
一 般 为 输入 关键 词 ， 展 示 知 识 关 系 ， 关 联 导 航 深层 具体 知识 点 ， 查 看 知识 所 在 
具体 文章 。 语 义 丰 富 化 示范 平台 的 研发 实现 了 这 4 个 功能 : 

(1) 数字 对 象 语义 识别 与 检索 功能 : 将 用 户 输入 关键 词 识别 语义 对 象 ， 使 
用 语义 进行 检索 。 

(2) 检索 结果 知识 关系 揭示 功能 : 对 检索 内 容 ， 展 示 周 边 知 识 关 系 网 络 ， 
揭示 知识 全 貌 。 

(3) 语义 关系 的 关联 导航 : 根据 语义 关系 ， 关 联 导航 深层 具体 知识 点 。 通 
过 语义 关联 导航 ， 过 滤 更 精确 的 检索 结果 。 

(4) 具体 文章 的 语义 化 阅读 ， 查 看 知识 所 在 具体 文章 ， 对 知识 点 和 知识 3 
联 关系 进行 高 亮 显 示 辅 助 阅读 。 

功能 介绍 如 下 : 
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5.1 实现 数字 对 象 语义 识别 与 检索 


Headache 
| Headache (体征 或 症状 ) | A ey + is pain | 
| Headache Disorders (疾病 或 症 棒 ) gly she aep of 
| Primary Exertional Headache (疾病 或 症 De ee 
| 乓 ) of causes both benign and more serious. 
| Brain tissue itvelf is not sennitive to pain as| 
| Headache Disorders, Secondary (疾病 Er 
| 或 症状 ) 更 多 >> 
| Primary Cough Headache (疾病 或 症 
| 状 》 
| Headache Disorders, Primary (疾病 或 症 
| 拱 ) 
| Hemicrania (体征 或 症状 》 
| Neuralgia (体征 或 症状 ) 


5 语义 识别 功能 展示 图 


示范 系统 能 够 根据 用 户 输入 关键 词 识别 出 相应 的 语义 对 象 ， 展 示 相 关 语 义 
对 象 的 解释 。 如 图 5 所 示 : 输入 headache 检索 关键 词 ， 系 统 识别 headache 相 
关 的 语义 对 象 ， 它 是 属于 “体征 或 症状 ”的 类 型 范畴 。 同 时 给 出 关于 Headache 
的 百科 词 条 解释 和 相关 的 图 片 。 

较 之 传统 文献 检索 ， 这 部 分 功能 的 优势 在 于 可 以 规范 用 户 输入 ， 将 模糊 的 
关键 词 匹 配 检索 转变 为 具有 语义 特征 的 语义 对 象 检 索 ， 从 而 让 语义 丰富 化 检索 
更 加 精准 。 同 时 语义 识别 功能 可 以 标示 出 语义 对 象 的 所 属 类 型 〈 或 范畴 ) ， 从 
而 辅助 用 户 进行 语义 消暑 。 避 免 传 统 关 键 词 检索 出 现 的 语义 偏差 。 


Headache(111) 


" Migraine Disorders (92 
»" Patients (63) 
sa Clinical Research (55) 
" Common (29 


more 


" Migraine Disorders (92 
»" Patients (63) 
" Clinical Research (55) 
" Common (29 


more 


" Migraine Disorders (70 
» Patients (54) 

» Tension Headache (35 
= Headache Disorders (33 


more 


5.2 检索 结果 知识 关系 揭示 


共 检 索 到 111 篇 文章 


Primary headache disorders in children under 7 years of age 


ISSN: publication-date:2013 Volume: jssue- Pages- 
再 人寿 寺 -Ramadas S Prasad M Abu 
语义 对 象 : Clinical， Young， Headache Disorders, Primary， Child， Common, 


Ambulatory Care Facilities, Most, Headache Disorders, Atypical， Unclassified, 


7 检索 结果 知识 关系 展示 图 


神志 miR 

Headache (体征 或 症状 ) 

Headache Disorders 疾病 或 症状 ) 
Primary Exertional Headache 疾病 或 症 
状 ) 

Headache Disorders, Secondary 疾病 
或 症状 ) 

Primary Cough Headache 疾病 或 症 
状 ) 

Headache Disorders, Primary 疾病 或 症 
状 》 

Hemicrania 《体征 或 症状 》 

Neuralgia (体征 或 症状 ) 

Certified (想法 或 概念 ) 

Chronic post-traumatic headache (疾病 
或 症状 

共 现 句子 

Headache (体征 或 症状 ) 

Headache Disorders (疾病 或 症状 
Primary Exertional Headache 疾病 或 症 
状 ) 

Headache Disorders, Secondary 疾病 
或 症状 ) 

Primary Cough Headache (疾病 或 症 


知识 关系 揭示 功能 在 检索 结果 中 ， 以 图 形 方式 揭示 了 涉及 的 知识 对 象 、 知 
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识 之 间 的 语义 关系 、 知 识 所 在 的 文章 片段 (句子 、 段 落 等 ) ， 如 图 7 所 示 。 这 
些 知识 及 关联 关系 用 以 图 形 化 的 点 和 边 的 方式 展示 出 来 ， 使 用 不 同 的 颜色 的 点 
代表 不 同类 型 的 知识 对 象 ， 用 边 表示 知识 之 间 的 语义 关系 。 可 以 通过 点 击 - 关 
联 -导航 的 方式 ， 让 用 户 深入 发 现 自己 需要 的 知识 。 

示范 系统 能 够 清晰 地 展示 出 命中 的 知识 关系 以 及 这 些 知 识 存在 的 文章 、 句 
子 段落 。 揭 示 重 要 句子 和 知识 关系 对 科研 人 员 判 断 该 内 容 是 否 满足 其 检索 需要 
有 很 大 的 帮助 。 本 文 认为 使 用 相关 知识 对 象 、 事 实 、 句 子 、 段 落 检索 代替 全 文 
检索 ， 对 精准 的 语义 知识 发 现 更 有 帮助 。 用 户 可 以 点 击 语义 化 的 知识 对 象 、 句 
子 段落 ， 关 联 链接 查看 文献 全 文 。 
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5.3 实现 语义 关系 的 关联 导航 


[4 4 局 
Headache QO 搜索 
共 现 关系 共 句 关系 v 
| | 
= Migraine Disorders = Migraine Disorders sa Migraine Disorders (7 
" Patients ] » Patients " Patients 
» Clinical Research | :cal Researct sin Headache 
请 义 关系 十 法 关系 
sa Common (2 mon ( whe Disorders 
as PROCESS_OF Pabents . be puoished Imernational 0 
» PROCESS_OF Chid es | .followed Epiepsy 
na ISA Symeotoms sa has boen proposed 
" COEXISTS_WITH Eplepsy 
Headache sn ae Common 
as PROCESS OF Adolescont » afe Headache Disorders 
Primary 


6 语义 关系 导航 展示 图 


语义 关联 导航 功能 根据 检索 输入 匹配 语义 对 象 ， 在 对 检索 结果 文献 中 统计 
出 共 现 、 共 有 段落、 共 句 关系 的 语义 对 象 。 并 实现 关联 语义 对 象 的 导航 浏览 ， 便 
于 科研 用 户 从 潜在 的 关联 语义 对 象 中 发 现 有 价值 的 内 容 ， 并 通过 导航 功能 乌 选 
出 这 些 科 技 文献 。 如 图 6 上 半 部 分 所 示 : 查询 Headache 时 共 现 关系 、 共 句子 关 
系 、 共 段落 关系 出 现 Migraine Disorders， Clinical Research 等 ， 可 能 对 科研 人 员 
起 到 启示 的 作用 。 

同样 ，SPO 语义 关系 和 句法 关系 分 面 揭示 ， 以 谓词 + 宾语 《知识 对 象 ) 的 分 
面 统计 方式 揭示 潜在 语义 、 句 法 关系 。 如 图 6 下 半 部 分 所 示 : 检索 Headache， 
可 以 揭示 发 现 儿童 治疗 (Process of Childj， 治 疗 青 春 期 (Process of Adolescent) 等 深 
层 专业 领域 知识 的 文章 ， 并 可 以 揭示 出 相关 治疗 药物 (followed eplepsy) 的 研 
究 论文 等 ， 给 科研 人 员 提 供 明确 的 知识 关系 启发 和 导向 。 

示范 系统 通过 语义 关联 、 导 航 功 能 展现 的 知识 共 现 关系 及 语义 关系 ， 是 根 
据 数据 统计 方式 揭示 出 来 的 ， 有 助 于 发 现 隐 含 的 知识 关联 信息 ， 也 可 帮助 科研 
人 员 发 现 潜在 的 新 知识 关系 ， 探 索 学 科 交 叉 领 域 的 新 研究 点 。 扩 展 科 研 人 员 的 
研究 思路 ， 辅 助 科技 创新 。 
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5.4 单 片 文献 的 语义 化 辅助 阅读 


BO Concepts & Ideas 
BDO Disorders 


6 外 评 涯 (9) 
DD screening(ADMINISTERED_TO)individuals 
D migraine(ISA)pain 
D breastfeeding(PROCESS_OF)women 
日 seizures(PROCESS_OF)individuals 
D epilepsy(PROCESS_OF)individuals 
上 epilepsy(PROCESS_OF)Pregnant women 
DD breastfeeding(PROCESS_OF)women 
日 observational studies(USES)Scale 
日 methodological quality(USES)Scale 


如 图 7 所 示 ， 


networkmeta-analysis 
好 - BACKCROUND: Epilepsy affects about 1% of the ES 
(MED8) prevent or terminate SeiZUres in With epilepsy 
may continue taking BEDs, Jlany of these agents cross the 国 国 国 国 a 
congenital malformations, early cognitiveand developmental del 
Ye aim to evaluate thecomarative BB of approved for chron 
administeredto pregnant and and the effects or 

hrough a systematic review and network meta-analysis. I 
effects of MED adninistered to pregnant and 十 国 : 
epilepsy, migraine, pain, psychiatric disorders) on theirl 
included We wll include randonized clinical Mas (RCTs), oasi 
before-after, interrupted time series, OO, registry, ani 国 
literature search will beexecuted in WEDLINE, EMBASE, and the Coch 
Control ed Ye will seek wpublished literature through Sea 
Protocolregistries and POTS abstracts. The literature sea 
abstraction, and risk of bias appraisal will be performed by 

jl] be resolyed through discussion, Therisk of bias of € 
experimental studies will be appraisedusing the Cochrane Effective 
of Care Risk-of-Bias lquality of 
using theNewcastle-0ttawa 蚂 虽 and quality of BRB ot 国 司 
using the cllaster Quality Be Ra of He (carn) Bl 
we Ml] conduct random effects meta-analysis. INetworkmeta-analys 
outcomes that fulfill network meta-analysisassumptions. The primar' 
congenital malformations (overall and byspecific types), while 引 
fetal loss/miscarriage, ninorcongenital malformations (overall 
cognitive development, ,small for 
andneonatal seizures, i Our systematic review will addres 


Use of AEDs during Qur results will 
国 of childbearing age whoare ta 
medications, SYSTENATIC FEV TR. RR 420140089 


内 容 标注 
Comarative EY of anti 国 国 -durine Bee protocol FH 们 实体 (65) 


日 名 


日 各 


语义 关系 (11) 

D motor symptoms (WSG GNTEDN dio 
D Apathy(EESOGINIEDERID)idiopathic Par 
D apathy (GR) Po 

D disorder(EXISTS apathy 

D disorder( 画 于 SW) depression 

口 Parkinson disease (BUENIS TS OE 
D Parkinson disease (BUENISIS INTE 
D fMRI(EREGNOSES)Parkinson disease 

D Apathy(I8B)symptoms 

DO depression(IB)symptoms 

D Parkinson disease(IS)disorder 

句法 关系 (13) 

D Apathy and depression( 国 四 heterooeneo 
口 Anumber of additional regions (EENEBNE 
口 significance and reliability (WEEE OEE 
D interest (BB) as significant using 

D significant( 有 亲生)standard voxel-wise 

口 apathy and depression (BES)in a sinogl 
口 No functional imaging study 

口 Parkinson disease PD 便 )a disorder 

口 This clinical overlap (BB)to problems wit 
D analyses (WW useful scientific inform， 
口 Our finding that significance and reliability 
D Our results (EB)the use of resting fM 
D Disease severity (EE)by ALFF : 


图 7 单 片 文献 的 语义 化 辅助 阅读 展示 图 
语义 化 辅助 阅读 功能 在 查看 单 片 文献 时 ， 可 以 将 计算 识 


别 的 


语义 对 象 和 知识 之 间 关 系 高 亮 展示 出 来 。 如 图 7 所 示 ， 左 侧 的 树 形 列表 展示 的 
知识 对 象 按照 类 型 分 到 不 
同 的 组 中 ， 用 不 同 颜色 标示 。 中 间 主 体 部 分 是 文献 的 文摘 信息 ， 选 中 某 个 类 型 
的 知识 对 象 后 ， 在 中 间 的 文摘 信息 中 可 以 用 该 对 象 的 颜色 高 亮 显示 出 来 在 文献 


是 该 篇 文献 中 计算 让 


只 别 的 语义 知识 对 象 ， 将 这 些 ii 


4 


中 出 现 的 位 置 ， 方 便 用 户 查 阅 。 右 侧 展 示 该 文献 中 计算 得 到 的 语义 关系 和 人 句法 
关系 ， 同 样 可 以 查看 文中 的 具体 位 置 。 
示范 系统 所 提供 的 语义 化 辅助 阅读 方式 可 以 帮助 用 户 直 接 查 看 最 重要 的 知 


识 点 ， 直 接 定位 重要 知识 所 在 的 位 置 ， 引 导读 者 优先 阅读 重点 知 计 


子 ， 从 而 提高 对 文献 全 文 内 容 的 阅读 效率 。 


6 结语 


本 文 基于 PubMed 的 医学 领域 数据 集合 ， 


只 的 段落 和 句 


采用 较为 成 熟 的 数据 挖掘 、 知 识 关 


系 计算 工具 ， 研 究 提 出 了 语义 丰富 化 框架 的 设计 模型 ， 并 通过 构建 示范 系统 进 


一 步 证 明 语义 丰富 化 框架 的 优势 和 方法 的 可 行 


下 几 个 方面 较 大 提升 了 语义 化 文献 检索 效果 : 
(1) 语义 识别 技术 将 模糊 的 关键 词 匹配 检索 转变 为 具有 语义 特征 的 知识 对 
象 检 索 ， 提 升 检索 精准 度 。 辅 助 用 户 进 行 语义 消 歧 ， 


的 语义 偏差 。 


性 。 总 体 来 看 ， 本 研究 主要 从 以 


避免 传统 关键 词 检 索 出 现 


(2) 使 用 相关 知识 对 象 、 事 实 关 系 、 句 子 等 更 精准 的 语义 知识 代替 全 文 检 
索 ， 对 科研 人 员 判 断 该 内 容 是 否 满 足 其 检索 需要 有 更 大 的 帮助 。 通 过 语义 关联 
定位 真正 知识 所 在 的 文献 全 文 和 段落 。 

(3) 语义 关联 导航 功能 以 数据 统计 方式 揭示 潜在 关联 知识 ， 有 助 于 发 现 隐 
含 的 知识 关联 信息 ， 帮 助 科研 人 员 发 现 新 知识 ， 探 索 学 科 交 叉 领域 的 新 研究 点 ， 
扩展 科研 人 员 的 研究 思路 ， 辅 助 科技 创新 。 

(4) 语义 化 的 辅助 阅读 高 亮 浮现 重要 知识 点 的 位 置 ， 引 导读 者 优先 阅读 重 
要 段落 和 句子 ， 提 高 文献 全 文 内 容 的 阅读 效率 。 

在 本 文 试验 过 程 中 ， 也 发 现 了 一 些 问题 和 不 足 之 处 ， 希 望 能 够 在 未 来 的 工 
作 得 以 克服 和 改进 : 

(1) 使 用 clausIE 句法 分 析 得 到 的 SPo 三 元 组 关系 是 未 经 过 规范 的 。 本 文 已 
经 使 用 领域 词典 对 $s 和 P 进行 二 次 规范 ， 但 是 目前 还 没 对 谓词 pP 进行 规范 。 本 
文 试验 数据 中 未 规范 的 谓词 较为 凌乱 ， 对 关联 导航 发 现 功能 造成 一 定 程度 的 影 
响 ， 后 续 工 作 会 构建 谓词 规范 词 表 ， 或 谓词 语义 识别 方法 对 此 改进 和 提升 。 

(2) 计算 得 到 知识 对 象 之 间 的 语义 关系 ， 和 宽泛 的 上 位 词 关联 更 为 频繁 ， 
因此 在 揭示 知识 关系 时 出 现 宽泛 的 上 位 词 较 多 ， 但 大 部 分 宽泛 上 位 词 对 于 专业 
领域 的 科研 人 员 帮 助 不 大 ， 因 此 在 未 来 工作 中 可 以 根据 具体 的 科学 领域 ， 通 过 
TF/IDF 的 方法 计算 知识 对 象 的 权 值 ， 过 滤 掉 频繁 出 现 又 过 于 宽泛 上 位 词 ， 从 而 
改进 知识 关联 导航 功能 的 效果 。 
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